ডেটা লোডিং হল একটি গুরুত্বপূর্ণ ধাপ, বিশেষ করে ডীপ লার্নিং এবং মেশিন লার্নিং মডেল তৈরির সময়। এখানে আমরা তিনটি সাধারণ ডেটা ফর্ম্যাট – CSV, Image, এবং Text – এর জন্য কিভাবে ডেটা লোড করতে হয়, তা দেখবো।
1. CSV ফাইল থেকে ডেটা লোড করা
CSV (Comma Separated Values) ফাইল একটি সাধারণ ডেটা ফরম্যাট যা টেবিল আকারে ডেটা সংরক্ষণ করে। Python এ CSV ফাইল লোড করার জন্য জনপ্রিয় লাইব্রেরি হিসেবে Pandas এবং NumPy ব্যবহার করা হয়।
Pandas দিয়ে CSV লোড করা:
import pandas as pd
# CSV ফাইল লোড করা
df = pd.read_csv('data.csv')
# প্রথম ৫টি সারি দেখুন
print(df.head())
এখানে read_csv() ফাংশন ব্যবহার করে CSV ফাইলটি লোড করা হয়। .head() মেথডটি প্রথম ৫টি সারি প্রদর্শন করে।
NumPy দিয়ে CSV লোড করা:
import numpy as np
# CSV ফাইল লোড করা
data = np.loadtxt('data.csv', delimiter=',')
# ডেটা দেখুন
print(data)
এখানে loadtxt() ফাংশন ব্যবহার করে CSV ফাইলের ডেটা NumPy অ্যারে হিসেবে লোড করা হয়।
2. ইমেজ ফাইল থেকে ডেটা লোড করা
ইমেজ ডেটা লোড করার জন্য সাধারণত PIL (Python Imaging Library) বা OpenCV লাইব্রেরি ব্যবহার করা হয়। Keras এর মধ্যে image মডিউলও ইমেজ লোড করতে সহায়ক।
PIL দিয়ে ইমেজ লোড করা:
from PIL import Image
# ইমেজ লোড করা
img = Image.open('image.jpg')
# ইমেজ দেখানো
img.show()
Image.open() ব্যবহার করে ইমেজ ফাইল লোড করা হয়, এবং show() ফাংশনটি ইমেজটি প্রদর্শন করে।
Keras এর মাধ্যমে ইমেজ লোড করা:
from keras.preprocessing import image
# ইমেজ লোড করা
img = image.load_img('image.jpg', target_size=(224, 224))
# ইমেজকে NumPy অ্যারে হিসেবে কনভার্ট করা
img_array = image.img_to_array(img)
# ইমেজ প্রদর্শন করা
print(img_array.shape)
load_img() ফাংশনটি ইমেজ লোড করে, এবং img_to_array() ব্যবহার করে ইমেজটিকে NumPy অ্যারে হিসেবে কনভার্ট করা হয়।
3. টেক্সট ফাইল থেকে ডেটা লোড করা
টেক্সট ডেটা লোড করার জন্য সাধারণত Python এর বিল্ট-ই open() ফাংশন বা Pandas ব্যবহার করা হয়। সাধারণ টেক্সট ফাইল যেমন .txt ফাইল থেকে ডেটা লোড করার জন্য এটি ব্যবহৃত হয়।
Python দিয়ে টেক্সট লোড করা:
# টেক্সট ফাইল লোড করা
with open('textfile.txt', 'r') as file:
text_data = file.read()
# টেক্সট দেখানো
print(text_data)
open() ফাংশন ব্যবহার করে টেক্সট ফাইলটি রিড মোডে খোলা হয় এবং .read() মেথড দিয়ে পুরো ফাইলের কন্টেন্ট পড়ে নেয়া হয়।
Pandas দিয়ে টেক্সট ফাইল লোড করা:
import pandas as pd
# টেক্সট ফাইল লোড করা (যদি ডেটা স্যাভানো হয় টেবিল আকারে)
df = pd.read_csv('textfile.txt', delimiter='\t')
# প্রথম ৫টি সারি দেখুন
print(df.head())
এখানে read_csv() ফাংশন ব্যবহার করা হয়েছে, যেখানে delimiter='\t' ট্যাব স্পেস দিয়ে ডেটা সেপারেট করা হয় (যদি টেক্সট ফাইলের মধ্যে ট্যাব সেপারেটেড ডেটা থাকে)।
সারাংশ
- CSV ফাইল থেকে ডেটা লোড করতে
pandasবাnumpyব্যবহার করা হয়। - ইমেজ লোড করতে PIL, OpenCV, বা Keras image মডিউল ব্যবহার করা যায়।
- টেক্সট ফাইল থেকে ডেটা লোড করতে Python built-in open() বা Pandas ব্যবহার করা যেতে পারে।
এই পদ্ধতিগুলির মাধ্যমে আপনি বিভিন্ন ধরনের ডেটা লোড করতে পারবেন এবং ডীপ লার্নিং বা মেশিন লার্নিং মডেল প্রশিক্ষণের জন্য সেগুলি প্রস্তুত করতে পারবেন।
Read more